keywords:"lemmatizace" - Výsledky hledání - Digitální repozitář

host :: přihlásit Digitální repozitář
		Hledej		Nový záznam		Nápověda		O repozitáři

Hlavní stránka > Výsledky hledání: keywords:"lemmatizace"

Hledej:

Tipy pro vyhledávaní :: Rozšířené hledání

Hledej ve sbírkách:

Seřadit podle:	Zobrazit výsledky:	Výstupní formát:

	Určení základního tvaru slova Šanda, Pavel ; Burget, Radim (oponent) ; Karásek, Jan (vedoucí práce) Lemmatizace je důležitou procedurou před dolováním v textu v mnoha aplikacích. Proces lemmatizace je podobný procesu stemmingu, s tím rozdílem, že neurčuje pouze kořen slova, ale snaží se slovo převést pomocí metod Brute Force a Suffix Stripping do jeho základního tvaru. Hlavním cílem této práce je prezentovat metody pro vylepšení algoritmů lemmatizace českého jazyka. Obsahem je vytvoření trénovací množiny dat, kterou lze libovolně použít pro studentské i vědecké práce zabývající se podobnou problematikou. Úplný záznam
	Rychlá adaptace počítačové podpory hry Krycí jména pro nové jazyky Jareš, Petr ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce) Tato diplomová práce rozšiřuje herní systém umělého hráče slovně-asociační hry Krycí jména o snadné přídání podpory pro nové jazyky. Systém je schopný hrát Krycí jména v rolích hádajícího hráče, zadavatele nápověd a jejich kombinací hráče verze Duet. K analýze různých jazyků byl použit neurální nástroj Stanza, který je jazykově nezávislý a umožňujě automatizované zpracování celé řady jazyků. Jednalo se především o lemmatizaci slov a určování slovních druhů pro výběr kandidátních nápověd ve hře. Pro vyhodnocení slovních asociací byla testována řada modelů, kde nejlepších výsledků dosahovala metoda Pointwise Mutual Information a prediktivní model fastText. Systém podporuje hraní Krycích jmen v 36 jazycích tvořených 8 různými abecedami. Úplný záznam
	Nalezení slovních kořenů v češtině Hellebrand, David ; Bartík, Vladimír (oponent) ; Chmelař, Petr (vedoucí práce) Cílem této diplomové práce je vytvořit pro český jazyk lemmatizační algoritmus založený na gramatických pravidlech. Práce obsahuje popis problematiky lemmatizace a několika různých lemmatizačních algoritmů. Dále jsou popsány základy gramatiky českého jazyka a také jazyka Snowball, ve kterém budou navržené postupy implementovány. Hlavní část tvoří popis implementace lemmatizačního algoritmu. Úplný záznam
	Automatická tvorba slovníků z překladových textů Sumbalová, Lenka ; Kouřil, Jan (oponent) ; Smrž, Pavel (vedoucí práce) Cílem této bakalářské práce bylo vytvořit systém pro automatickou tvorbu slovníků z překladových testů. Je popsána implementace systému, který generuje česko-anglický slovník ze zarovnaného paralelního korpusu a shrnut výsledek práce. Dále je analyzován paralelní korpus CzEng, který byl použit jako zdroj dat pro slovníky a vysvětleny teoretické pojmy související s touto problematikou. Úplný záznam
	Paralelní korpusový manažer Kouřil, Jan ; Dytrych, Jaroslav (oponent) ; Smrž, Pavel (vedoucí práce) Cílem diplomové práce bylo implementovat paralelní korpusový manažer, který umí zarovnat paralelní cizojazyčné texty a vložit je do korpusu, kde jsou poskytnuty další funkce pro jejich zpracování. Program poskytuje možnosti automatického zarovnání paralelních textů a jejich interaktivní úpravy. Tyto zarovnané texty se následně vkládají do korpusu. Program umí spravovat několik korpusů, paralelní korpus je identifikován vždy dvojicí jazyků. V korpusu je potom možno vyhledávat podle několika kategorií, zobrazovat a editovat jednotlivé výběry, lemmatizovat a morfologicky značkovat dané texty, provádět různá třídění výběrů, importovat a exportovat data, různými způsoby upravovat korpus pro další snadnou navigaci a přidávat další významy do spravovaných slovníků. Jednotlivé kapitoly popisují úvod ke korpusové problematice, teorii zarovnání paralelních textů, morfologické značkování textu a lemmatizaci, externí nástroje v programu použité, nejčastější formáty titulků a implementační řešení jednotlivých problémů. Úplný záznam
	Odvození slovníku pro nástroj Process Inspector na platformě SharePoint Pavlín, Václav ; Masařík, Karel (oponent) ; Kreslíková, Jitka (vedoucí práce) Tato diplomová představuje metody pro dolování důležitých informací z textu. Analyzuje problém extrakce pojmů z rozsáhlé sady dokumentů a popisuje implementaci řešení s využitím jazyka C# a databázového systému Microsoft SQL Server. Systém k extrakci pojmů využívá lemmatizaci výrazů a několik statistických metod. Práce také srovnává použité metody a navrhuje postup odvození slovníku. Úplný záznam
	Rozpoznávání emocí v česky psaných textech Červenec, Radek ; Smékal, Zdeněk (oponent) ; Burget, Radim (vedoucí práce) Díky rozvoji informačních a komunikačních technologií v posledních letech došlo k velkému nárůstu množství informací, které denně vznikají ve formě elektronických dokumentů. Třídění a zpracování informací se stalo pro člověka velmi obtížné, a proto vzrůstá obliba systémů automatického dolování znalostí z textu. Zajímavou podoblastí jsou systémy pro analýzu sentimentu a automatického rozpoznání emocí v textech, které mají potencionálně široké uplatnění. V rámci této práce byl navržen a implementován systém využívající technik dolování znalostí z textu za účelem rozpoznávání emocí v česky psaných textech a bylo provedeno zhodnocení jeho úspěšnosti. Protože je systém postaven převážně na metodě strojového učení, byla navrhnuta a vytvořena trénovací množina, která byla posléze použita k vytvoření modelu klasifikátoru pomocí algoritmu podpůrných vektorů (SVM). Pro potřeby zpřesnění výsledků klasifikace textových dokumentů do předem definovaných emočních tříd, jsou do systému integrovány další prvky, jako např.: lexikální databáze, lemmatizátor a odvozený slovník klíčových slov. Součástí práce je také zhodnocení několika přístupů ke klasifikaci s různými modifikacemi navrženého systému. Úplný záznam
	Czech-English Translation Petrželka, Jiří ; Schmidt, Marek (oponent) ; Smrž, Pavel (vedoucí práce) This Master's thesis describes the principles of statistical machine translation and demonstrates how to assemble the Moses statistical machine translation system. In the preparation step, a research on freely available bilingual Czech-English corpora is done. An empirical analysis of time requirements of multithreaded word alignment tools demonstrates that MGIZA++ can achieve a five-fold speed-up, while PGIZA++ can reach an eight-fold speed-up (compared to GIZA++).Three scenarios of morphological pre-processing of Czech training data are tested, using simple unfactored models. While pure lemmatization can aggravate the BLEU, more sophisticated approaches usually raise BLEU. The positive effect of morphological pre-processing diminishes as corpus size rises. The relation between other corpora characteristics (size, genre, extra data) and the resulting BLEU are empirically gauged. A final system is trained on the CzEng 0.9 corpus and evaluated on the testing set from WMT 2010 workshop. Úplný záznam
	Rychlá adaptace počítačové podpory hry Krycí jména pro nové jazyky Jareš, Petr ; Otrusina, Lubomír (oponent) ; Smrž, Pavel (vedoucí práce) Tato diplomová práce rozšiřuje herní systém umělého hráče slovně-asociační hry Krycí jména o snadné přídání podpory pro nové jazyky. Systém je schopný hrát Krycí jména v rolích hádajícího hráče, zadavatele nápověd a jejich kombinací hráče verze Duet. K analýze různých jazyků byl použit neurální nástroj Stanza, který je jazykově nezávislý a umožňujě automatizované zpracování celé řady jazyků. Jednalo se především o lemmatizaci slov a určování slovních druhů pro výběr kandidátních nápověd ve hře. Pro vyhodnocení slovních asociací byla testována řada modelů, kde nejlepších výsledků dosahovala metoda Pointwise Mutual Information a prediktivní model fastText. Systém podporuje hraní Krycích jmen v 36 jazycích tvořených 8 různými abecedami. Úplný záznam
	Analýza textů uživatelských recenzí plaveckých bazénů Dragolovová, Anna Práce se zabývá identifikací nejčastěji diskutovaných témat v uživatelských recenzích plaveckých bazénů. Uživatelské recenze byly automaticky staženy ze stránek recenzí Google, předzpracovány do formy vhodné pro aplikování metod strojového učení, zpracovány přístupy bag of words a word embeddings a podrobeny shlukové analýze a metodám modelování témat. Výsledkem je 22 témat, která se opakovaně vyskytují v recenzích plaveckých bazénů, na jejichž základě lze identifikovat priority, na které by se management plaveckých bazénů měl zaměřit. Úplný záznam

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.

Digitální repozitář :: :: :: ::
Powered by v1.1.2
Spravuje

Tato stránka je dostupná také v následujících jazycích:
Česky English